Kuvageneraattori

Dall-E 2 -kuvageneraattorin tuottama kuva tekstisyötteellä "Juhannus explosion"

Kuvageneraattorit ovat koneoppimismalleja, jotka luovat kuvia tekstipohjaisiin kuvauksiin perustuen. Tällaisia malleja alettiin kehittää 2010-luvun puolivälissä syvien neuroverkkojen edistysaskelten ansiosta, ja vuoteen 2022 mennessä huippuluokan malleilla, kuten OpenAI:n DALL-E 2:lla, Google Brainin Imagenilla ja StabilityAI:n Stable Diffusionilla, pystyttiin tuottamaan lähes valokuvanlaatuisia kuvia.

Kuvageneraattorimallit koostuvat yleensä kielimallista, joka muuttaa syötetekstin latentiksi esitykseksi, ja generatiivisesta kuvamallista, joka luo kuvan tähän esitykseen perustuen. Ne koulutetaan valtavilla määrillä kuvia ja tekstiä, jotka yleensä kerätään internetistä.[1]

  1. James Vincent: All these images were generated by Google’s latest text-to-image AI The Verge. 24.5.2022. Viitattu 28.3.2023. (englanniksi)

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search